Güncel MMTEB (Multilingual, v2) leaderboard'unda toplam 399 model listelenmiş olup, sıralama Borda rank ile belirlenmiştir. Bu bölüm, leaderboard'un genel yapısını, üst sıraları ve görev türleri bazındaki performans örüntülerini analiz etmektedir.
Aşağıdaki tablo, leaderboard'un üst 20 modelini teknik özellikleri ve tüm görev türü skorları ile birlikte sunmaktadır.
| Rank (Borda) | Model | Zero-shot | Active (B) | Total (B) | Dim | Max Tok | Mean(Task) | Mean(TT) |
|---|---|---|---|---|---|---|---|---|
| 1 | harrier-oss-v1-27b | 78% | 25.599 | 27.009 | 5376 | 131072 | 74.27 | 64.2 |
| 2 | KaLM-Embedding-Gemma3-12B-2511 | 73% | 10.759 | 11.766 | 3840 | 32768 | 72.32 | 62.51 |
| 3 | llama-embed-nemotron-8b | 99% | 6.98 | 7.505 | 4096 | 32768 | 69.46 | 61.09 |
| 4 | Qwen3-Embedding-8B | 99% | 6.946 | 7.567 | 4096 | 32768 | 70.58 | 61.69 |
| 5 | gemini-embedding-001 | 99% | 3072 | 2048 | 68.37 | 59.59 | ||
| 6 | Qwen3-Embedding-4B | 99% | 3.634 | 4.022 | 2560 | 32768 | 69.45 | 60.86 |
| 7 | Octen-Embedding-8B | 99% | 6.946 | 7.567 | 4096 | 32768 | 67.84 | 60.28 |
| 8 | F2LLM-v2-14B | 88% | 13.214 | 13.99 | 5120 | 40960 | 68.74 | 59.45 |
| 9 | F2LLM-v2-8B | 88% | 6.947 | 7.568 | 4096 | 40960 | 68.09 | 58.99 |
| 10 | harrier-oss-v1-0.6b | 78% | 0.44 | 0.596 | 1024 | 32768 | 69.01 | 59.0 |
| 11 | Seed1.6-embedding-1215 | 89% | 2048 | 32768 | 70.26 | 61.34 | ||
| 12 | F2LLM-v2-4B | 88% | 3.634 | 4.022 | 2560 | 40960 | 67.06 | 58.25 |
| 13 | jina-embeddings-v5-text-small | ⚠️ NA | 0.44 | 0.596 | 1024 | 32768 | 67.0 | 58.9 |
| 14 | F2LLM-v2-1.7B | 88% | 1.41 | 1.721 | 2048 | 40960 | 65.21 | 56.78 |
| 15 | harrier-oss-v1-270m | 78% | 0.1 | 0.268 | 640 | 32768 | 66.55 | 56.9 |
| 16 | Qwen3-Embedding-0.6B | 99% | 0.44 | 0.596 | 1024 | 32768 | 64.34 | 56.01 |
| 17 | jina-embeddings-v5-text-nano | ⚠️ NA | 0.113 | 0.212 | 768 | 8192 | 65.52 | 57.66 |
| 18 | gte-Qwen2-7B-instruct | ⚠️ NA | 6.526 | 7.069 | 3584 | 32768 | 62.51 | 55.93 |
| 19 | Linq-Embed-Mistral | 99% | 6.98 | 7.111 | 4096 | 32768 | 61.47 | 54.14 |
| 20 | multilingual-e5-large-instruct | 99% | 0.304 | 0.56 | 1024 | 514 | 63.22 | 55.08 |
| Rank (Borda) | Model | Bitext | Retrieval | STS | Reranking |
|---|---|---|---|---|---|
| 1 | harrier-oss-v1-27b | 86.02 | 78.27 | 79.99 | 67.35 |
| 2 | KaLM-Embedding-Gemma3-12B-2511 | 83.76 | 75.66 | 79.02 | 67.27 |
| 3 | llama-embed-nemotron-8b | 81.72 | 68.69 | 79.41 | 67.78 |
| 4 | Qwen3-Embedding-8B | 80.89 | 70.88 | 81.08 | 65.63 |
| 5 | gemini-embedding-001 | 79.28 | 67.71 | 79.4 | 65.58 |
| 6 | Qwen3-Embedding-4B | 79.36 | 69.6 | 80.86 | 65.08 |
| 7 | Octen-Embedding-8B | 80.35 | 71.61 | 81.27 | 67.64 |
| 8 | F2LLM-v2-14B | 77.15 | 66.5 | 76.97 | 70.49 |
| 9 | F2LLM-v2-8B | 75.96 | 66.15 | 76.47 | 70.34 |
| 10 | harrier-oss-v1-0.6b | 82.85 | 70.75 | 77.09 | 63.16 |
| 11 | Seed1.6-embedding-1215 | 78.68 | 66.05 | 75.92 | 66.24 |
| 12 | F2LLM-v2-4B | 74.49 | 64.84 | 75.91 | 69.38 |
| 13 | jina-embeddings-v5-text-small | 69.71 | 64.88 | 78.85 | 65.66 |
| 14 | F2LLM-v2-1.7B | 73.18 | 61.97 | 75.77 | 67.17 |
| 15 | harrier-oss-v1-270m | 81.54 | 66.38 | 75.35 | 61.9 |
| 16 | Qwen3-Embedding-0.6B | 72.23 | 64.65 | 76.17 | 61.41 |
| 17 | jina-embeddings-v5-text-nano | 67.7 | 63.26 | 78.17 | 64.63 |
| 18 | gte-Qwen2-7B-instruct | 73.92 | 60.08 | 73.98 | 65.55 |
| 19 | Linq-Embed-Mistral | 70.34 | 58.69 | 74.86 | 64.37 |
| 20 | multilingual-e5-large-instruct | 80.13 | 57.12 | 76.81 | 62.61 |
| Rank (Borda) | Model | Classification | Multilabel | PairC | Clustering | Instr. Rer. |
|---|---|---|---|---|---|---|
| 1 | harrier-oss-v1-27b | 79.95 | 36.44 | 85.44 | 58.93 | 5.39 |
| 2 | KaLM-Embedding-Gemma3-12B-2511 | 77.88 | 33.03 | 84.73 | 55.77 | 5.49 |
| 3 | llama-embed-nemotron-8b | 73.21 | 29.86 | 83.97 | 54.35 | 10.82 |
| 4 | Qwen3-Embedding-8B | 74.0 | 28.66 | 86.4 | 57.65 | 10.06 |
| 5 | gemini-embedding-001 | 71.82 | 29.16 | 83.63 | 54.59 | 5.18 |
| 6 | Qwen3-Embedding-4B | 72.33 | 26.77 | 85.05 | 57.15 | 11.56 |
| 7 | Octen-Embedding-8B | 66.68 | 25.23 | 85.12 | 55.68 | 8.9 |
| 8 | F2LLM-v2-14B | 73.0 | 28.14 | 81.26 | 60.91 | 0.62 |
| 9 | F2LLM-v2-8B | 71.93 | 27.38 | 81.18 | 60.62 | 0.85 |
| 10 | harrier-oss-v1-0.6b | 73.88 | 26.37 | 82.07 | 54.0 | 0.81 |
| 11 | Seed1.6-embedding-1215 | 76.75 | 46.16 | 85.5 | 56.78 | -0.02 |
| 12 | F2LLM-v2-4B | 70.73 | 26.58 | 80.51 | 59.53 | 2.25 |
| 13 | jina-embeddings-v5-text-small | 71.32 | 41.97 | 82.93 | 53.41 | 1.35 |
| 14 | F2LLM-v2-1.7B | 67.68 | 26.04 | 79.87 | 58.77 | 0.56 |
| 15 | harrier-oss-v1-270m | 70.84 | 23.97 | 80.12 | 52.51 | -0.47 |
| 16 | Qwen3-Embedding-0.6B | 66.83 | 24.59 | 80.83 | 52.33 | 5.09 |
| 17 | jina-embeddings-v5-text-nano | 69.18 | 41.31 | 81.94 | 52.73 | 0.05 |
| 18 | gte-Qwen2-7B-instruct | 61.55 | 25.48 | 85.13 | 52.77 | 4.94 |
| 19 | Linq-Embed-Mistral | 62.24 | 24.77 | 80.43 | 50.6 | 0.94 |
| 20 | multilingual-e5-large-instruct | 64.94 | 22.91 | 80.86 | 50.75 | -0.4 |
Tam leaderboard verisi incelendiğinde, görev türleri arasında çarpıcı performans farklılıkları ortaya çıkmaktadır:
399 modelin büyük çoğunluğu için tablo büyük ölçüde boştur. Yaklaşık 180. sıradan sonra modellerin çoğunda görev türü skorlarının hiçbiri raporlanmamıştır; bu modeller yalnızca model kartı bilgileriyle listelenmiş durumdadır.
Bu durumdan etkilenen örnekler: